Esquema Dos Métodos

Desenho Experimental

i) Sítios de amostragem

80 sítios de amostragem; amostragem de indivíduos arbóreos com DBH >= 5cm em bloco único; coordenada central do sítio de amostragem

ii) Predições

Modelo Neutro Espacialmente Explícito (EE)

Para cada combinação de parâmetros U e d, a respectiva matriz de paisagem e o modelo descrito por Rosindell et al. (2008) geramos 100 SADs réplicas

Modelo Neutro Espacialmente Implícito (EI)

Para cada combinação de parâmetros \(\theta\) e I e a formula de amostragem desenvolvida por Etienne (2005) geramos 100 SADs réplicas

iii) Comparação com o observado

Cada SAD réplica foi comparada com a respectiva SAD observada no teste de Kolmogorov-Smirnov (KS). O teste KS é um teste estatístico não paramétrico da hipótese nula de que dois vetores de abundância são amostras de uma mesma distribuição teórica. Contabilizamos o número de SADs réplicas em que não foi possível refutar a hipótese nula com alfa crítico de 0.05 na variável (GOF).

Matriz de Paisagem

  1. landsat 8 => recorte de paisagem de 5 km^2 concêntrico ao sítio de amostragem (Site)
  2. ajuste de resolução da imagem tal que: densidade de pixels = densidade de indivíduos na área amostrada (DA)
    ii.a) portanto o lado da célula (l_cel) = 100/sqrt(DA) metros
  3. se a porcentagem de cobertura vegetal do pixel for >= 70% então é unidade de habitat; caso contrário é unidade de não habitat
  4. a comunidade local é composta de J (número de indivíduos amostrados) unidades de habitat na região central do recorte de paisagem

Função de Dispersão

  1. partimos de uma distribuição de Laplace para simular a função de dispersão
  2. determinamos 12 valores de proporção de propágulos que se mantêm até l_cel metros da árvore progenitora (k): 0.99,0.95:0.50,0.25
  3. então calculou-se a distância média de dispersão (d) que gerava o correspondente percentil

Taxa de Especiação - U

Dado matriz de paisagem e riqueza observada (S) no respectivo Site, estimamos um valor médio de taxa de especiação (U) para cada nível de k. Para está estimativa utilizamos um método semi-analítico derivado do modelo neutro de espaço explícito descrito em Rosindell et al. 2008 e estimamos 20 réplicas para cada cenário neutro.

Equivalência entre grandezas

i) Parâmetros de dispersão

Desenvolvemos uma equação que relaciona d com a probabilidade de uma unidade de habitat ser colonizada pela prole de um indivíduo de fora da comunidade local (m) e então calculamos I o número de imigrantes que competem com os indivíduos locais pelas unidades de habitat disponível (Etienne 2005).

Para calcular m a partir do desvio padrão (sd) da função de dispersão, assumimos que as áreas de amostragem são quadradas e distribuição de Laplace:

\[m = sd \frac{1 - e^{-\frac{\sqrt{2} L}{sd}} }{\sqrt{2} L}\]

Onde L = lado da área amostrada. Para corrigir essa equação para paisagens não homogêneas (fragmentadas) utilizamos uma correção de valor:

\[m' = \frac{mp}{1 - (1-p)m} \]

Para criar as predições do modelo EI utilizamos a formula de amostragem de Etienne (2005) que utiliza o parâmetro I ao invés de m. I se relaciona com m por:

\[ I = m (J - 1) / (1 - m)\]

ii) Parâmetros de Diversidade

Para cada U calculamos o respectivo theta por:

\[ \theta = U (J_M - 1) / (1 - U) \] Onde \(J_M\) é o número de indivíduos na paisagem:

\[ J_M = 500 p DA \] 500 é área do recorte de paisagem em hectares

Parâmetros de Dispersão

d - distância média de dispersão

Perguntas: Quais as situações biológicas que estamos simulando? Em relação às médias de síndromes de dispersão em floresta intacta? E em floresta fragmentada?

Gráficos Exploratórios

Figura 1 Distância média de dispersão, k (proporção de propágulos até l_cel metros da planta progenitora) e DA (densidade observada)

Tabela de Seleção de Modelos

  • distribuição Gamma com função de ligação ‘log’
##      dAICc   df
## k+DA     0.0 15
## k      123.6 14
## DA   19032.9 4 
## 1    19132.3 3

Observado e predito

Figura 2 Distância média de dispersão (d) e o predito segundo d ~ DA.z + k + (1 | Sítio), family=Gamma(log). Os pontos são as distâncias médias estimados para o determinado percentil (k) de propágulos que permanecem até l_cel metros da planta progenitora; em vermelho o predito.

Tabela de efeitos na escala padrão

##             par.class par.VE  par.value
## DA.z             beta   DA.z  0.8651770
## (Intercept)      alfa k=0.99  0.4800254
## k0.95            alfa k=0.95  2.9486305
## k0.9             alfa  k=0.9  3.6146252
## k0.85            alfa k=0.85  4.1794911
## k0.8             alfa  k=0.8  4.7222410
## k0.75            alfa k=0.75  5.2578802
## k0.7             alfa  k=0.7  5.8093999
## k0.65            alfa k=0.65  6.3961099
## k0.6             alfa  k=0.6  7.0234188
## k0.55            alfa k=0.55  7.7180471
## k0.5             alfa  k=0.5  8.4854431
## k0.25            alfa k=0.25 14.8749015

Status

Análise da variável quase completa. Problemas de convergência não permitiram estimar os intervalos de confiança das estimativas e nem o R^2 do modelo mais plausível.

Questões Qual seria k dado d, ou seja, extrapolar a relação para poder inferir qual seria k para determinadas médias de síndrome de dispersão sem precisar simular as funções de dispersão.

Utilizando a equação matemática estimada seria necessário utilizar k enquanto variável contínua.

I

Perguntas: Quais são as estimativas do parâmetro de dispersão de EI obtido em campos? Quais são os valores que simulamos?

Gráficos Exploratórios

Figura 3 Gráficos Exploratórios de I, k e J (número de indivíduos amostrado)

Status

Não iniciei a análise da variável.

Parâmetros de Diversidade

U - taxa de especiação

Gráficos Exploratórios

Efeitos fixos indivíduais

Figura 4 Taxa de especiação, k, p e S

Interações efeitos fixos

Figura 5.1 U ~ k * p

Figura 5.2 U ~ k * S

Figura 5.3 U ~ k * p + S

  • Achei estranho que há valores de U baixos para altos valores de S
  • Então pensei em um possível efeito do tamanho amostral: quanto maior J maior a árvore genealógica da comunidade [sob hipótese de monodominância] e assim menor a probabilidade média de imigração necessária para gerar uma mesma riqueza observada
  • O tamanho da metacomunidade ao redor pode ter o mesmo efeito, esse efeito pode ser expresso em termos de relação de J/J_M pois considera-se a coalescência apenas da área amostral e não da paisagem

Figura 5.4 U, J e J/J_M em escala padrão e log

-Parece que há um efeito de log(J), contudo, há correlação entre as variáveis empíricas p, S e J:

Figura 5.5 Relação entre co-variáveis empíricas S, J e p

  • Na análise de U consideramos o efeito de S, mas não de J. Eu acredito que vale a investigação se os dois outliers de J (J>5000) não podem estar influênciando muito as estimativas
Efeitos aleatórios

Figura 6.1 U ~ k * p_class (group=Site)

Figura 6.2 U ~ k * S_class (group=Site)

Resultados da dissertação

  • Para modelar U aplicamos a transformação logito
  • Utilizamos então a distribuição normal e a função de ligação identidade para a seleção dos modelos
Tabela de Seleção e R2

Tabela de Seleção de Variáveis para descrever logito de U

##           dAICc  df weight
## p * k + S    0.0 27 1     
## p * k       34.1 26 <0.001
## p + k + S  520.0 16 <0.001
## k + S      524.3 15 <0.001
## k          551.3 14 <0.001
## p + k      554.1 15 <0.001
## p + S      976.8 5  <0.001
## S          981.1 4  <0.001
## 1         1008.1 3  <0.001
## p         1010.9 4  <0.001

R2 marginal e condicional da seleção de modelos

  • pelo método de Nakagawa & Schielzeth (2013)
##     p * k + S p + k + S     p + S     k + S         S      p * k     p + k
## R2m 0.4085237 0.3955838 0.3798639 0.3281880 0.3123633 0.05639136 0.0434292
## R2c 0.9659666 0.9525370 0.9362971 0.9522779 0.9359492 0.96602350 0.9526163
##              p         k         1
## R2m 0.02763708 0.0159788 0.0000000
## R2c 0.93640354 0.9520796 0.9356831

Porcentagem da variância explicada pelos efeitos fixos

  • R2m / R2c
##  p * k + S  p + k + S      p + S      k + S          S      p * k 
## 0.42291700 0.41529497 0.40570880 0.34463469 0.33373955 0.05837473 
##      p + k          p          k          1 
## 0.04558940 0.02951407 0.01678305 0.00000000
Predito e Intervalo de Confiança

Figura 7 Logito de U pela porcentagem de cobertura vegetal. A linha é a estimativa da tendência, a região cinza mais escuro corresponde ao intervalo de confiança dos efeitos fixos e a região cinza mais clara o intervalo de confiança considerando todo o modelo.

Sumário do modelo mais plausível
## Linear mixed model fit by REML ['lmerMod']
## Formula: lU ~ p.z * k + lS.z + (1 | Site)
##    Data: df_resultados
## 
## REML criterion at convergence: -1521.5
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -5.2165 -0.4717  0.0007  0.4159  4.1802 
## 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  Site     (Intercept) 0.31488  0.5611  
##  Residual             0.01922  0.1387  
## Number of obs: 1920, groups:  Site, 80
## 
## Fixed effects:
##              Estimate Std. Error t value
## (Intercept) -5.225142   0.063688  -82.04
## p.z         -0.314663   0.083823   -3.75
## k0.95        0.298990   0.015502   19.29
## k0.9         0.316596   0.015502   20.42
## k0.85        0.313439   0.015502   20.22
## k0.8         0.312528   0.015502   20.16
## k0.75        0.317082   0.015502   20.45
## k0.7         0.326863   0.015502   21.09
## k0.65        0.339343   0.015502   21.89
## k0.6         0.355750   0.015502   22.95
## k0.55        0.371681   0.015502   23.98
## k0.5         0.373077   0.015502   24.07
## k0.25        0.325775   0.015502   21.02
## lS.z         0.590210   0.083163    7.10
## p.z:k0.95    0.127109   0.015506    8.20
## p.z:k0.9     0.134138   0.015506    8.65
## p.z:k0.85    0.135096   0.015506    8.71
## p.z:k0.8     0.129778   0.015506    8.37
## p.z:k0.75    0.124554   0.015506    8.03
## p.z:k0.7     0.094797   0.015506    6.11
## p.z:k0.65    0.051615   0.015506    3.33
## p.z:k0.6     0.024926   0.015506    1.61
## p.z:k0.55   -0.006494   0.015506   -0.42
## p.z:k0.5    -0.023442   0.015506   -1.51
## p.z:k0.25   -0.155537   0.015506  -10.03
## 
## Correlation matrix not shown by default, as p = 25 > 12.
## Use print(x, correlation=TRUE)  or
##   vcov(x)     if you need it
Status

Falta atualizar o método de obtenção do R2m e R2c e recuperar/revisar o texto da dissertação dessa sessão

Questões

  1. Quando a hipótese de equilíbrio é válida? E quando não for ainda é uma boa aproximação utilizar U como taxa de extinção de espécies raras? O quê é uma espécie rara?

Theta

Gráficos Exploratórios

  • theta é uma função de U e J_M (que por sua vez é uma função de p e DA)
  • no modelo EI se pressupõem que J_M >> J, o quê para paisagens finitas e fragmentadas pode não ser uma boa aproximação
  • assim, além de avaliar as variáveis de interesse (p e k) vou também avaliar o efeito de: J e J_M, S (uma vez que é uma função de U)
Possíveis Variáveis de interesse

Figura 8.1 Theta e possíveis variáveis variáveis de intresse

Interação entre variáveis

Figura 8.2.1 theta ~ p * k

Figura 8.2.2 theta ~ S * k

Figura 8.2.3 theta ~ log(J/JM) * k

Status

  • análise da variável não foi iniciada;

Comparação da predição com o observado (GOF)

Gráficos exploratórios

Efeitos indivíduais das variáveis de interesse

  • 3 variáveis de interesse: p, k e MN (classe de modelo neutro)

Figura 9 GOF e variáveis de interesse p, k ,MN

Possíveis interações entre as variáveis

Figura 10.1 GOF ~ p * k

Figura 10.2 GOF ~ p * MN

Figura 10.3 GOF ~ MN * K

Figura 10.4 GOF ~ p * k * MN

Figura 10.5 Logito GOF ~ p * k * MN

Possíveis estruturas aleatórias

1|Site

Figura 11.1 logito de GOF ~ site (~p.class)

MN|Site

Figura 11.2 logito de GOF ~ MN * Site (~p.class)

Anaĺise estatística

Modelo Cheio

Seleção da Estrutura Aleatória
##         dAICc   df weight
## MN|Site     0.0 51 1     
## 1|Site  13961.6 49 <0.001
Diagnóstico do Modelo Selecioonado
  • resíduos quantílicos (DHARMa)

Figura 12.1 Resíduos quantílicos: 1o gráfico qq-plot e teste de aderência dos resíduos com o esperado segundo uniformidade com a distribuição teórica (teste de Kolmogorov-Smirnov); 2o gráfico resíduos contro o previsto, linhas são da regressão quantílica (0.25, 0.50, 0.75)

Figura 12.2 resíduos contra as variáveis preditoras

Figura 12.3 resíduos contra as variáveis preditoras p * MN * k

Figura 12.4 resíduos contra as variáveis preditoras MN * k

  • o teste de uniformidade mostra que desvio é significativo apontando para o modelo não prediz corretamente as observações
  • o gráfico dos resíduos conra os valores previstos indica que a variação não está igualmente distribuida (como se pode ver pelas regressões quantílicas)
  • parece que o modelo está com dificuldades de fazer um bom ajuste k:0.25 e para MN:EI
  • vou explorar outras funções de ligação para avaliar se o ajuste do modelo pode ficar melhor
Comparação das três funções de ligação canônicas para a distribuição binomial
##           dAICc   df weight
## c MN|Site     0.0 51 1     
## p MN|Site  1651.9 51 <0.001
## l MN|Site  1755.4 51 <0.001
## c 1|Site  12797.8 49 <0.001
## p 1|Site  15579.0 49 <0.001
## l 1|Site  15717.0 49 <0.001
  • o modelo mais plausível considera a função de ligação cloglog

Figura 12.5 Resíduos quantílicos do modelo com função de ligação cloglog, o único plausível

  • não observo melhorar significativa do modelo (figura 12.1 e 12.5)
  • para comparação segue o teste de aderência das três funções de ligação

Figura 12.6 Testes de aderência à uniformidade dos resíduos quantílicos: 1o painel - logito; 2o painel - probito; 3o painel - cloglog

  • Não diferenças significativas entre as três funções de ligação
  • uma vez que não observamos melhora, optamos prosseguir com a função de ligação logito pois sua interpretação e comunicação é mais fácil.

Seleção de Variáveis

  • comparamos todos os submodelos criados a partir do modelo cheio que considera a interação de terceira ordem entre as variável p, k e MN
Seleção do modelo mais plausível
##               dAICc   df weight
## p*k*MN            0.0 51 1     
## p*k*MN-p:k:MN  3697.3 40 <0.001
## k*(p+MN)       3701.9 39 <0.001
## MN*(p+k)       6346.6 29 <0.001
## k*MN+p         6352.5 28 <0.001
## k*MN           6357.2 27 <0.001
## p*(k+MN)       7570.3 29 <0.001
## p*k+MN         7577.7 28 <0.001
## p*MN+k        10288.5 18 <0.001
## p+k+MN        10293.1 17 <0.001
## k+MN          10298.7 16 <0.001
## p*MN          23437.1 7  <0.001
## p+MN          23441.9 6  <0.001
## MN            23447.7 5  <0.001
## p*k           36015.1 25 <0.001
## p+k           37721.6 14 <0.001
## k             37725.6 13 <0.001
## p             48819.8 3  <0.001
## 1             48824.0 2  <0.001
  • O modelos cheio foi o único modelo plausível somando peso de evidência próximo de 1.
Estimativas do modelo mais plausível
  • segue súmario do modelo mais plausível:
## glmer(formula = cbind(GOF, 100 - GOF) ~ p.z * k * MN + (MN | 
##     Site), data = df_resultados, family = "binomial", control = glmerControl(optimizer = "bobyqa", 
##     optCtrl = list(maxfun = 1e+05)))
##                coef.est coef.se
## (Intercept)    -0.03     0.12  
## p.z            -0.78     0.12  
## k0.95           0.28     0.04  
## k0.9            0.70     0.04  
## k0.85           0.98     0.04  
## k0.8            1.42     0.04  
## k0.75           1.75     0.04  
## k0.7            2.12     0.04  
## k0.65           2.33     0.05  
## k0.6            2.19     0.04  
## k0.55           1.85     0.04  
## k0.5            1.36     0.04  
## k0.25          -3.38     0.09  
## MNEE            3.46     0.25  
## p.z:k0.95       0.24     0.04  
## p.z:k0.9        0.52     0.04  
## p.z:k0.85       0.70     0.04  
## p.z:k0.8        0.89     0.04  
## p.z:k0.75       1.01     0.04  
## p.z:k0.7        1.16     0.04  
## p.z:k0.65       1.26     0.04  
## p.z:k0.6        1.02     0.04  
## p.z:k0.55       0.58     0.04  
## p.z:k0.5        0.30     0.04  
## p.z:k0.25      -2.69     0.08  
## p.z:MNEE        0.92     0.25  
## k0.95:MNEE     -0.47     0.07  
## k0.9:MNEE      -0.90     0.07  
## k0.85:MNEE     -1.28     0.07  
## k0.8:MNEE      -1.67     0.07  
## k0.75:MNEE     -1.99     0.07  
## k0.7:MNEE      -2.37     0.08  
## k0.65:MNEE     -2.51     0.08  
## k0.6:MNEE      -2.18     0.08  
## k0.55:MNEE     -1.53     0.08  
## k0.5:MNEE      -1.11     0.08  
## k0.25:MNEE      2.81     0.11  
## p.z:k0.95:MNEE -0.06     0.07  
## p.z:k0.9:MNEE  -0.38     0.07  
## p.z:k0.85:MNEE -0.48     0.07  
## p.z:k0.8:MNEE  -0.75     0.07  
## p.z:k0.75:MNEE -0.81     0.07  
## p.z:k0.7:MNEE  -1.10     0.08  
## p.z:k0.65:MNEE -1.00     0.08  
## p.z:k0.6:MNEE  -0.91     0.08  
## p.z:k0.55:MNEE -0.44     0.08  
## p.z:k0.5:MNEE  -0.18     0.08  
## p.z:k0.25:MNEE  3.42     0.10  
## 
## Error terms:
##  Groups   Name        Std.Dev. Corr  
##  Site     (Intercept) 1.01           
##           MNEE        2.16     -0.18 
##  Residual             1.00           
## ---
## number of obs: 1920, groups: Site, 80
## AIC = 35752.1

Pontos para avaliação:

  1. o erro padrão das estimativas dos coef está baixa com relação a seus valores (quais seriam valores altos?);
  2. o desvio padrão estimado para a estrutura aleatória indica que existe grande variância dentro das categórias (pesquisar essa questão)
  3. a correlação intra estrutura aleatória é baixa (pesquisar segundo ponto)

Figura 13.1 Média e Interval de confiança de 95% estimado para cada coeficiente do modelo mais plausível. Método de estimativa a parti de simulação (Gelman & Hill 2006) (?). Intervalo de confiança criado com o desvio padrão da simulação com 1000 ciclos.

  • gráfico com as estimativas dos efeitos fixos; os coeficientes não estão ordenados por relação entre eles
  • a maior parte dos coeficientes apresenta pequeno intervalo de confiança

tabela 1 Efeitos Aleatórios: variância, erro padrão e correlação

##  Groups Name        Std.Dev. Corr  
##  Site   (Intercept) 1.0069         
##         MNEE        2.1578   -0.182

Figura 13.2 Média e Intervalo de Confiança de 95% dos parâmetros estimados da estrutura aleatória (MN|Site).

  • parece que existe grande variação entre sítios: há diferentes combinações entre intercepto e inclinação de MN:EE, e.g. valores baixos de intercepto com altos e baixos valores de MN:EE.
Observado e Predito

Figura 14 Logito de GOF (lGOF) e propoção de cobertura vegetal (p), por proporção de propágulos que permanece até a planta (k, o título dos quadros) e colorido pela classe de modelo neutro (MN: EI - modelo neutro de espaço implícito; EE - modelo neutro de espaço explícito). A linha central representa a média estimado e a área colorida representa o intervalo de confiança de 95%.

Figura 15 Comparação entre dois métodos de criação de intervalo de confiança de 95% em torno da média: coluna da esquerda pelo método do merTools e coluna da direita pelo método bootMers.

Figura 16 Número de predições não refutadas a partir da SAD observada e teste de Kolmogorov-Smirnov em função da % de cobertura vegetal. Os quadros estão dividos pelo modelo neutro que gerou as predições (colunas EI e EE) e pela proporção de propágulos que permanece até a vizinhança imediata da planta progenitora (linhas 0.99,…,0.25). A linha vermelha é a probabilidade de não refutar uma predição neutra, a região em branco ao redor da linha vermelha é o intervalo de confiança de 95% marginal ao agrupamento dos dados pelo sítio de amostragem, a região em cinza é o intervalo de confiança de 95% condicional ao agrupamento dos dados pelo sítio de amostragem.

Coeficiente de determinação

tabela 2 Coeficiente de determinação do modelo mais plausível - R2m (condicional à estrutura fixa); R2c (condicional ao modelo como um todo). Estimativa presente na versão 1.42 do pacote MuMin (Bartoń 2018).

##                   R2m       R2c
## theoretical 0.3375998 0.6505824
## delta       0.3053443 0.5884233
Parâmetros da hipótese estatística

Para cada quadro da figura 16 é possível estimar a média e intervalo de confiança de 95% condicional e marginal à estrutura aleatória da probabilidade média (alfa) e o efeito da cobertura vegetal (beta) na probabilidade de não refutar neutralidade:

Figura 17 Probabilidade média de não refutar (alfa) e o efeito da porcentagem de cobertura vegetal (p) na probabilidade de não refutar neutralidade (beta) pela proporção de propágulos até a vizinhança imediata da planta progenitora (k) e pelo modelo neutro que gerou a predição neutra (MN), em azul MN de espaço explícito e em vermelho MN de espaço explícito. As linhas horizontais são os efeitos médios, a caixa representa o intervalo de confiança de 95% (IC) para as predições marginais aos efeitos aleatórios e a linha vertical representa IC para as predições condicionais aos efeitos aleatórios do modelo mais plausível. Na coluna da direita os alfas e betas estão na escala da respostae, em porcentagens; na coluna da direita os parâmetros estão na escala da função de ligação. Os ICs e a média foram estimados a partir do ajuste de uma regressão linear considerando a interação de terceira ordem entre as preditoras (p, k e MN) para cada réplica do bootstrap da predição do modelo plausível, que está na escala da função de ligação; somou-se os vetores de coeficienes réplicas para obter os respectivos alfas e betas para cada combinação entre k e MN, então calculou-se as médias e os quantis para 2.5% e 97.5% dos coeficientes estimados. O coeficiente de determinação de todos as regressões lineares foi igual a 1.